「李宏毅机器学习」学习笔记-Unsupervised Learning - Deep Generative Model (Part I)

Dec 26, 2018 | 机器学习 | 阅读

本章课程PDF，视频（油管或B站）。

可以首先看一下OpenAI关于Generative Models的科普文章。

“What I cannot create, I do not understand. ” -Richard Feynman

Generative Model这种方法背后的直觉遵循理查德·费曼的名言。

根据前面的像素预测接下来的像素。PixelRNN不仅work，而且在不同的generate image方法中，产生的图是最清晰的。

李老师用宝可梦举例时，用到的tips—— 如果RGB三个值相差不大，则得到的颜色总是灰灰的、不够明亮，可以把众多颜色聚成若干类然后使用1-of-N encoding来表示。

It is difficult to evaluate generation.

如果要从头开始画，要故意加一些random，选取下一个pixel时Variational Autoencoder (VAE)，不一定选取几率最高的，会有一定几率选概率比较低的颜色出来，防止每次画出来的都一样。

把auto-encoder中的decoder拿出来，随便产生一个vector作为code输入到decoder，得到一张image，这样做performance通常不一定很好。如果使用VAE，得到的结果会比较好。

VAE与Auto-encoder相比，结构非常像，只是在中间加了一些神妙的小trick。

VAE得到的结果不太清楚。

VAE与PixelRNN区别在于，理论上VAE可以控制要生成的image。
比如code是10维，固定其中8维、调整剩余2维，看生成的image结果。通过不同的点产生的不同效果，可以解读code的每个维度代表什么意思。我们就可以通过调整code的每个维度的数值，去产生不同的image。

先胡乱选两个句子，经过encoder得到这两个句子的code，在code space上是两个点，连接两个点，然后等距采样、用decoder还原，得到一系列句子。（其实并不是写诗）

如果本博文对您有帮助，可以赞助支持一波博主~